home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group94b.txt / 000124_icon-group-sender _Fri Nov 25 14:30:48 1994.msg < prev    next >
Internet Message Format  |  1995-02-09  |  5KB

  1. Received: by cheltenham.cs.arizona.edu; Fri, 25 Nov 1994 07:42:26 MST
  2. Original-Via: 
  3. Pp-Warning: Illegal Via field on preceding line
  4. From: ROBERT VAN DER ZWAN <RZWAN@dish.gla.ac.uk>
  5. To: icon-group@cs.arizona.edu
  6. Date: Fri, 25 Nov 1994 14:30:48 GMT
  7. Subject: textual analysis/tilt project glasgow uni.
  8. Priority: normal
  9. X-Mailer: PMail v3.0 (R1)
  10. Message-Id: <49B163D1DE4@dish.gla.ac.uk>
  11. Errors-To: icon-group-errors@cs.arizona.edu
  12.  
  13. Tilt C History
  14. Checklist textual analysis 9/11/94
  15.  
  16.  
  17. 1. Textual database preparation/running
  18. * a. allowing import of extended-character set ASCII text 
  19. (including main European languages) Importing should be easy 
  20. to handle.
  21. * b. recognition of simple mark up (for stucture of a text 
  22. (chapters, pages etc.) and for elements of content. Mark up of 
  23. structure of a text is essential for possibility of performing 
  24. searches in parts of the text. 
  25. - Mark up preferably SGML because of possibilities of 
  26. interchange.
  27. - Also of importance: possibilities of (semi)-automatic markup.
  28. - It should be possible to hide the mark-up.
  29.  
  30.  
  31. 2. Vocabulary overview (providing rough pointers to the nature and content 
  32. of a text).
  33. * a. Type-token ratio
  34. * b. Complete word list with frequency count, displayable both 
  35. in alphabetic order and in order of frequency, for all or a 
  36. predetermined part of the text. Also selected wordlist (as 
  37. opposed to complete)
  38.  c. token-character ratio (which should give rough average of 
  39. lenghts of words)
  40.  
  41. 3. Content retrieval facilities.
  42. NB. As much as possible of a-e should be done in conjunction and should be 
  43. subject to 'filtering' (treating only limited parts of the text) 
  44. * a. word searches including use of wild cards and Boolean 
  45. operators.
  46. * b. combined search for user-defined  clusters of semantically 
  47. unrelated but near synonymous words (noble, aristocr*)  
  48. * c. search for word pairs (f.e. social contract) and proximate 
  49. associates (mandatories of the people), rights of man/woman)
  50. * d. search for roots and lemma's (f.e.: oligarchy, monarchy, 
  51. noble for ennoblement, nobility.
  52. - this could be done by the use of wildcards, but preferable by 
  53. way of parsing.?
  54. * e. collocation (including a user defined span) producing a z-
  55. score, which indicates the measure of probability that words 
  56. are used together on purpose.
  57.  f. macine generated search strategy via thesaurus (preferably 
  58. user-trainable thesaurus, to accomodate variable historical 
  59. usage), were potential related words are offered from thesaurus 
  60. for confirmation or rejection by searcher. 
  61.  
  62. 4. Additional quantitative/stylistic facilities (extending basics of 2 above and 
  63. currently achievable only through combination of various software)
  64. * a. enhancement of word frequency list (2/b.) by means of 
  65. statistical options to calculate how much unique words, twice 
  66. occurring words, and so on up to high frequency words 
  67. contribute both to the total vocabulary and to the total word 
  68. length (?) (useful to assess the audience for which an author 
  69. may conciously or unconsciously have wanted to address and 
  70. to refine the potentially misleading type-token ratio.
  71. * b. graphical display of frequencies of unique words and so 
  72. on.
  73. c. direct quantification of word - and sentence length (see 2c 
  74. above) (paragraph length is not meaningful for most historical 
  75. texts and therefore not necessary).
  76. d. quantification of use of question marks, passive voice etc.
  77. e. simple parsing to assist with 3 d-f. (allowing to exclude f.e. 
  78. all function words or search for nouns only etc.)
  79.  
  80. 5 Display functions:
  81. * a. keyword(s) displayed in full text (highlit), and in 
  82. concordance form (index, user-definable KWIC), giving location-
  83. reference by line or marked-up section (chapter, page etc.) or 
  84. both.
  85. * b. 'topographical' distribution display, showing clustering of 
  86. keyword(s) over the entire text or user-specified sections of 
  87. that text.
  88. c. free movement between displays without the need for new 
  89. retrieval.
  90.  
  91. 6 User facilities:
  92. * a. simple interface for 'naive' users:
  93. - all functions available by menu and or icon
  94. - preferably Windows compatible
  95. - step by step guidance through procedures
  96. - no use of difficult terms, or good help function available.
  97. * b. easy output of results (to printer, wordproccessor, 
  98. database package or spreadsheet), preferably by using cut and 
  99. paste option in Windows.
  100. * c. reasonable speed of performance for complex retrievals 
  101. (f.e. collocations) and large bodies of text (2-5 Mb) 
  102.  
  103.  
  104.  
  105.   
  106.  
  107.  
  108.